合并文件前比较字典

By Ruben Geert van den Berg

引言

使用 [ADD FILES](/spss-add-files-command) 合并数据可能会导致产生无意义的数据。当变量或值在不同的文件中具有不同的含义时，就会发生这种情况。通过比较不同文件的字典，可以快速检测到编码不一致的变量。

问题是什么？

当使用 ADD FILES 合并文件时，不一致的字典信息将被丢弃。例如，如果变量 v1 在一个文件中表示“性别（gender）”，而在另一个文件中表示“就业状况（employment status）”，就会发生这种情况。在这种情况下，指示性别的数值似乎表示就业状况，反之亦然。有关演示，请参阅 SPSS Add Files - Cautionary Note。

解决方案是什么？

SPSS 比较字典工具

将要合并的文件放在同一个文件夹中。确保此文件夹中没有其他 .sav 文件。
关闭所有打开的数据集。
确保已安装 SPSS Python Essentials。
下载并安装 SPSS Dictionary Checker。请注意，这是一个 SPSS 自定义对话框。
转到 实用程序(Utilities) 搜索语法文件(Search Syntax Files)。将数据文件夹的路径复制粘贴到对话框中，然后选择是否要写入包含变量”保存列表(save list)“的语法(syntax) 文件。单击 粘贴(Paste) 并运行粘贴的语法。
单击该工具的 帮助(Help) 按钮将带您到本教程。我们非常感谢您对此的反馈。

字典概述的解释

SPSS 比较字典工具结果

此命令将始终生成一个新的数据集，其中包含字典比较的概述。
每一行代表一个变量或一个值，包含值标签（value labels）和变量标签（variable labels），这些标签来自不同的源文件。
空单元格 表示变量不存在于一个或多个源文件中，或者未定义标签。
值不一致性 (val_incon) 是（不同标签的数量 - 1）。不将空单元格计为不同的标签。
变量不一致性 (var_incon) 是每个变量的所有值不一致性的总和。
变量按变量不一致性降序排序。也就是说，“最差”的变量被移动到数据集的顶部。
默认情况下，具有零变量不一致性的变量将从概述中删除。因此，完全一致的数据文件将导致生成一个空的新数据集。
该命令不区分大小写。在比较之前，所有标签都将转换为小写。

关于语法文件的说明

字典检查可能会写入一个新的语法(syntax) 文件，其中包含所有编码一致的变量。
该文件名为 “savelist.sps”，将出现在源数据文件夹中。
如果此文件已存在，则将被覆盖。
在使用之前，可以向此“保存列表(save list)”添加或从中删除变量。
为了使用它，首先合并所有文件，然后在结果上运行此语法文件。它将删除所有不在“保存列表(save list)”中的变量。